Amélioration du temps d'indexation #16

Riron · 2024-02-09T08:37:37Z

Proposition de quelques modifs mineures:

désactiver les refresh, et refresh manuellement en one shot à la fin d'un process d'indexation. Il faudra penser à couper le refresh sur les index déjà existants si on part la dessus
ne plus générer d'ID mais laisser ES affecter un ID à chaque élément. Si on affecte nous même un ID, ES doit checker pour chaque élément si cet identifiant existe déjà avant de pouvoir insérer l'élément, ce qui est assez couteux. Il faut cependant qu'on s'assure que lorsqu'on query on ne requête pas ce champ identifiant et plutot se baser sur le siret
il m'a semblé qu'on avait un run de retry non batché en cas d'erreur 429 qui n'était pas nécessaire. La logique de wait & retry avec un temps exponentiel est me semble-t-il suffisante et évite de surcharger d'opérations ES
lorsqu'on a plusieurs workers, le code attendait que tous les workers aient fini d'indexer avant de passer au batch suivant. Je propose de gérer un compteur de promesses en dehors du process d'indexation pour permettre que le nombre de workers affectés soit toujours utilisé à son maximum

Pour info, lors de mon dernier test sur un ES Scalingo starter 4GB, j'ai indexé les siret en 2h40 avec les paramètres suivants (contre environ 6h sur les derniers runs airflow, vers une gros ES 16gb redondé, mais qui a de la charge métier):

INDEX_CHUNK_SIZE 10000
TD_SIRENE_INDEX_MAX_CONCURRENT_REQUESTS 4
TD_SIRENE_INDEX_MAX_HIGHWATERMARK 16384

Il m'a semblé contre productif de monter le highWaterMark dans mes tests, car la data est déjà bufferisée plus vite que ce que l'ES peut traiter, et donc augmenter la valeur ne faisait qu'augmenter la pression mémoire de la machine.

package.json

src/indexation/elasticSearch.helpers.ts

Riron · 2024-03-07T21:19:11Z

Après test sur l'ES de prod redescendu à 8gb, et utilisé par l'app en parallèle => 3h20 pour l'indexation complète.
Vs 8h+ quelques jours avant avec l'ancienne version

Various tries to speed up processing

ad848c4

Riron commented Feb 9, 2024

View reviewed changes

package.json Show resolved Hide resolved

elishowk reviewed Feb 20, 2024

View reviewed changes

src/indexation/elasticSearch.helpers.ts Show resolved Hide resolved

elishowk reviewed Feb 20, 2024

View reviewed changes

src/indexation/elasticSearch.helpers.ts Show resolved Hide resolved

elishowk reviewed Feb 20, 2024

View reviewed changes

src/indexation/elasticSearch.helpers.ts Show resolved Hide resolved

Riron changed the title ~~Proposition d'améliorations~~ NE PAS MERGER AVANT LE 12/03 - Proposition d'améliorations Feb 22, 2024

elishowk assigned Riron and elishowk Feb 22, 2024

elishowk mentioned this pull request Feb 22, 2024

Changement requete par SIRET sur stocketablissement searchCompany MTES-MCT/trackdechets#3118

Merged

5 tasks

Retry in response fails

88ba9df

Riron force-pushed the test branch 2 times, most recently from e7b8e37 to 9040c6b Compare March 5, 2024 17:04

Fix test

cd24b8f

Riron force-pushed the test branch from 9040c6b to cd24b8f Compare March 5, 2024 17:17

Fix siretWithUniteLegaleFormatter

f0870c2

Riron changed the title ~~NE PAS MERGER AVANT LE 12/03 - Proposition d'améliorations~~ Amélioration du temps d'indexation Mar 19, 2024

Riron merged commit db3bd5b into main Mar 28, 2024
3 checks passed

Riron deleted the test branch March 28, 2024 10:55

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Amélioration du temps d'indexation #16

Amélioration du temps d'indexation #16

Riron commented Feb 9, 2024 •

edited

Loading

Riron commented Mar 7, 2024

Amélioration du temps d'indexation #16

Amélioration du temps d'indexation #16

Conversation

Riron commented Feb 9, 2024 • edited Loading

Riron commented Mar 7, 2024

Riron commented Feb 9, 2024 •

edited

Loading